Hugging Face

主に自然言語処理のコミュニティ、データセット

共通インタフェースもある

環境変数

HF_HOME 以下にモデルキャッシュされていく

HF_HUB_CACHE

デフォルトは ~/.cache/huggingface

キャッシュディレクトリの構造 Understand caching

HUGGING_FACE_HUB_TOKEN

$HF_HOME/token に書いていてもよい、環境変数セットしたら上書き

事前にモデルをダウンロードしておく

docker build 時など

ライブラリの Pipeline.from_pretrained を呼ぶ?

from huggingface_hub import hf_hub_download がある

cli がある、これでいいのか

huggingface_hub[cli]

code:dockerfile

ENV HF_HOME=/model-cache

RUN --mount=type=secret,id=HF_TOKEN HF_TOKEN=$(cat /run/secrets/HF_TOKEN) \

huggingface-cli download google/gemma-2-2b-it

ローカルにあるファイルだけを使う

ENV HF_HUB_OFFLINE=1

If set, no HTTP calls will be made to the Hugging Face Hub. If you try to download files, only the cached files will be accessed.

AutoModelHogeHoge.from_pretrained(local_files_only=True)

Hugging Face Transfer

爆速!!!

https://gyazo.com/526fd47362d544d36317d0ae7b133ba8

$ pip install huggingface_hub[hf_transfer] でインストール

CLI からも使える

$ HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli upload ...

Docker image

Jupyter からログイン

使うのは huggingface_hub、huggingfaceではない

code:notebook_login.py

from huggingface_hub import notebook_login

notebook_login()

notebook_login(token=userdata('hf_token')) # のように渡しても良い